উদাহরণ সহ OCR ব্যবহার

Java Technologies - অ্যাপাচি টিকা (Apache Tika) - Tika এবং Optical Character Recognition (OCR) Integration
297

অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী টুল যা টেক্সট এক্সট্রাকশনসহ OCR (Optical Character Recognition) প্রযুক্তির মাধ্যমে ইমেজ বা স্ক্যান করা ডকুমেন্ট থেকে টেক্সট রিড এবং প্রসেস করতে পারে। অ্যাপাচি টিকা Tesseract OCR ইঞ্জিনের সাহায্যে এই কাজটি সম্পন্ন করে।


OCR কি?

OCR (Optical Character Recognition) হলো এমন একটি প্রযুক্তি যা ইমেজ বা স্ক্যান করা ফাইল থেকে লেখাকে পড়ে এবং সেই টেক্সটকে ডিজিটাল ফরম্যাটে রূপান্তরিত করে।


অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?

অ্যাপাচি টিকা Tesseract OCR লাইব্রেরির ইন্টিগ্রেশন ব্যবহার করে OCR-এর মাধ্যমে ইমেজ ফাইল বা স্ক্যান করা পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে পারে।

প্রয়োজনীয় ডিপেন্ডেন্সি

OCR ফিচার ব্যবহারের জন্য অ্যাপাচি টিকা এবং Tesseract OCR ইনস্টল থাকতে হবে।

Tesseract OCR ইনস্টলেশন (Linux/Ubuntu):

sudo apt-get install tesseract-ocr

উদাহরণ: Tika এবং OCR

১. Tika CLI এর মাধ্যমে OCR ব্যবহার

ধরা যাক আপনার কাছে একটি স্ক্যান করা পিডিএফ বা ইমেজ ফাইল আছে (example.jpg)। অ্যাপাচি টিকা কমান্ড লাইন ইন্টারফেস (CLI) ব্যবহার করে টেক্সট এক্সট্রাক্ট করতে পারবেন।

কমান্ড:

java -jar tika-app-x.x.jar -t example.jpg

Output:
ফাইল থেকে টেক্সট এক্সট্রাক্ট হয়ে টার্মিনালে প্রদর্শিত হবে।


২. Java প্রোগ্রামে OCR ব্যবহার

OCR সাপোর্ট সহ অ্যাপাচি টিকা কোডের মাধ্যমে ইমেজ থেকে টেক্সট প্রসেস করা যায়।

Java কোড:

import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.metadata.Metadata;

import java.io.File;
import java.io.FileInputStream;

public class TikaOCRExample {
    public static void main(String[] args) throws Exception {
        // Tika এবং Tesseract OCR সেটআপ
        Tika tika = new Tika();
        TesseractOCRConfig config = new TesseractOCRConfig();
        config.setLanguage("eng"); // ভাষা সেট করুন
        ParseContext context = new ParseContext();
        context.set(TesseractOCRConfig.class, config);

        // ফাইল প্রসেসিং
        File file = new File("example.jpg");
        Metadata metadata = new Metadata();
        FileInputStream inputStream = new FileInputStream(file);

        String text = tika.parseToString(inputStream, metadata, context);
        System.out.println("Extracted Text: " + text);
    }
}

স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন

অ্যাপাচি টিকার মাধ্যমে স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করার জন্যও Tesseract OCR ব্যবহার করা হয়।

কমান্ড লাইন:

java -jar tika-app-x.x.jar -t scanned_document.pdf

Output:
টেক্সট স্ক্যান করা পিডিএফ থেকে এক্সট্রাক্ট হয়ে প্রিন্ট হবে।


Tika OCR কনফিগারেশন

OCR প্রসেস আরও কাস্টমাইজ করার জন্য TesseractOCRConfig ব্যবহার করা হয়।

প্রধান সেটিংস:

  • Language: OCR এর ভাষা (ডিফল্ট eng)
  • DPI: স্ক্যান করা ফাইলের রেজোলিউশন সেট করা
  • Timeout: OCR প্রসেসিংয়ের সময়সীমা নির্ধারণ

Example:

config.setLanguage("ben"); // বাংলা OCR
config.setTimeout(120);    // ২ মিনিট টাইমআউট

সুবিধা

  • মাল্টি-ল্যাংগুয়েজ সাপোর্ট: Tesseract-এর মাধ্যমে অ্যাপাচি টিকা একাধিক ভাষায় OCR করতে পারে।
  • ইমেজ এবং স্ক্যান পিডিএফ সাপোর্ট: ফরম্যাটের সীমাবদ্ধতা নেই।
  • ইন্টিগ্রেশন সহজ: Java API এবং CLI উভয়ের মাধ্যমে ব্যবহারযোগ্য।

সারাংশ

অ্যাপাচি টিকা এবং Tesseract OCR-এর সমন্বয়ে স্ক্যান করা ডকুমেন্ট, ইমেজ বা পিডিএফ থেকে সহজে এবং কার্যকরীভাবে টেক্সট এক্সট্রাক্ট করা যায়। এটি ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের জন্য একটি অত্যন্ত কার্যকর সমাধান।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...